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摘要 : [ 目的 ] 针对 CFSFDP(Clustering by Fast Search and Find of Density Peaks) 算 法 利用 局 部 密度 和 距离 的 乘积 
选择 聚 类 中 心 而 导致 聚 类 结果 不 理想 的 问题 进行 改进 。[ 方法 ] 提出 一 种 基于 粒子 群 算法 的 CFSFDP 算法 , 通过 


粒子 群 算法 寻找 CFSFDP 算法 中 的 最 佳 局 部 密度 和 距离 阔 值 ， 得 到 相对 较 高 的 局 部 密度 和 距离 的 聚 类 中 心 , 减 
少 离散 点 对 数据 中 心 选取 的 影响 , 并 在 某 高 考 咨询 平台 提供 的 考生 问题 库 中 随机 选取 数据 集 进 行 试验 。[ 结果 ] 


实验 结果 表明 , 在 不 同 的 数据 集中 , 本 文 算法 相对 于 基本 的 CFSFDP 算法 在 准确 率 、 召 回 率 、F 值 上 均 有 明显 提 
高 。[ 局 限 】 文 本 处 理 时 没有 考虑 语义 关系 。[ 结论 】 本 文 方法 有 很 好 的 聚 类 效果 , 应 用 在 高 考 咨询 库 中 能 够 有 
效 地 减轻 被 咨询 方 的 工作 量 并 且 帮 助 快 速 回答 考生 的 问题 。 


关键 词 : CFSDFP ” 聚 类 中 心 ” 粒子 优化 群 算法 
分 类 号 : TP391 
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随 着 信息 时 代 的 到 来 , 互联 网 中 的 数据 以 爆炸 式 
增长 , 如 何 从 这 些 海量 的 数据 中 获取 有 用 的 信息 并 对 
数据 进行 有 效 的 处 理 分 析 是 当前 研究 的 热点 。 数 据 挖 
据 丫 中 的 一 个 热门 分 支 就 是 聚 类 中, 它 是 一 种 无 监督 
学 习 方 法 , 无 需 任何 先 验 知识 , 按照 某 种 相似 性 度量 
方式 , 找到 数据 之 间 的 共性 , 将 数据 集 划分 成 若干 个 
不 同 的 类 。 划 分 到 同一 个 类 中 的 数据 相似 度 高 、 差 异 
小 ， 而 不 同类 之 间 的 数据 相似 性 较 低 。 迄 今 为 止 , 对 聚 
类 方法 的 研究 已 经 长 达 几 十 年 , 它 在 医学 、 模 式 识 别 、 
图 像 处 理 、 用 户 兴 趣 推荐 等 方面 具有 广泛 的 应 用 , 推 
动 了 社会 的 发 展 , 改善 了 人 们 的 生活 。 

目前 ， 聚 类 算法 主要 分 为 5 KRI 基于 层次 的 
方法 、 基 于 划分 的 方法 、 基 于 密度 的 方法 、 基 于 模型 
的 方法 和 基于 网 络 的 方法 。 每 一 类 聚 类 方法 都 有 一 些 
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ARAP, 在 文本 处 理 方面 有 着 广泛 的 应 用 。 但 是 鉴 
于 数据 的 多 样 性 和 复杂 性 , 没有 任何 一 种 聚 类 算法 可 
以 普遍 适用 于 各 种 数据 集 ， 每 一 类 方法 都 有 各 自 的 优 
点 和 缺陷, 不 同 的 聚 类 算法 会 得 到 不 同 的 聚 类 结果 。 
本 文 对 比 实验 中 ，Agglomerative Clustering 算法 和 
DBSCAN 算法 分 别 是 基于 层次 和 基于 密度 的 方法 ， 基 
本 的 CFSFDP 算法 是 由 Rodriguez 和 Laio 提出 的 一 种 
新 的 密度 聚 类 算法 外 ,该 算法 具有 人 能够 发 现任 意 形状 
的 数据 集 且 快速 简单 的 优点 。 张 文 开 进行 了 基于 密度 
的 层次 聚 类 算法 研究 外 Mehmood 等 进行 了 基于 
CFSFDP 算法 的 模糊 聚 类 研究 允 ， 马 春来 等 提出 一 种 
基于 簇 中 心 点 自动 选择 策略 的 密度 峰值 聚 类 算法 习 。 
由 于 CFSFDP 算法 聚 类 中 心 的 选取 取决 于 数据 点 密度 
和 距离 乘积 的 大 小 , 乘积 越 大越 有 可 能 是 聚 类 中 心 ， 
而 数据 集中 密度 大 距离 小 或 距离 大 密度 小 的 数据 点 之 
间 的 乘积 也 可 能 很 大 而 被 误 认为 是 聚 类 中 心 。 因 此 本 
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数据 分 析 与 知识 发 现 


文通 过 引入 粒子 群 算法 找到 一 对 密度 距离 国 值 , 数据 
集中 密度 和 距离 均 大 于 这 对 阅 值 的 数据 点 为 数据 中 
D, 减少 了 离散 点 对 聚 类 中 心 选 取 的 影响 , 实现 了 聚 类 
中 心 的 自动 选择 , 减少 了 人 工 干 预 的 过 程 。 

本 文 的 实验 数据 来 自 于 某 高 考 咨询 平台 自动 问答 
APP, 其 中 的 数据 都 是 学 生 对 于 所 报考 大 学 的 录取 情 
况 、 学 校 基本 信息 等 方面 的 问题 , 对 其 中 文本 的 聚 类 
有 利于 完善 机 器 人 知识 库 ， 提 高 对 学 生 问答 的 准确 
率 。 将 该 算法 应 用 于 从 中 抽取 的 数据 集中 , 证 明了 本 
文 聚 类 算法 的 有 效 性 。 


2 相关 工作 


2.1 CFSFDP 算法 

CFSFDPD 聚 类 算法 的 基本 思想 是 : 首先 计算 数 
据点 的 密度 及 距离 ,其 次 选取 聚 类 中 心 ,最 后 对 非 聚 
类 中 心 点 进行 归 类 操作 。 其 中 ,对 聚 类 中 心 的 选取 是 
该 算法 的 关键 。 聚 类 中 心 点 具有 两 个 重要 的 特征 : R 
类 中 心 本 身 密度 比较 大 , 它 是 由 一 些 密度 比 它 小 的 数 
据点 包围 ; 与 其 他 比 其 密度 高 的 数据 点 之 间 的 距离 都 
比较 大 。 基 本 的 CFSFDP 算法 选取 聚 类 中 心 的 方法 具 
有 很 大 的 缺点 : 数据 集中 密度 大 距离 小 或 密度 小 距离 
大 的 数据 点 乘积 也 可 能 很 大 而 被 误 认 为 是 聚 类 中 心 ; 
聚 类 中 心 的 个 数 无 法 自动 确定 ， 需 要 一 个 人 工 干 预 的 
过 程 。 

(1) 局 部 密度 和 距离 

设 有 数据 集 s = fx} L7 02, N), dy 表示 
数据 点 x 和 数据 点 x 之 间 的 距离 。 对 于 数据 集 s 中 的 
每 一 个 数据 点 x;, 可 以 用 两 个 变量 进行 刻画 : 局 部 密 
度 和 距离 。 计 算 局 部 密度 p, WARR. 


pi= Y, v(d,,-d,) (1) 
jel, {i} 
Lx<0 NM , 
Jh, ao [i g PAASO MIRNA. 


由 公式 (1) 可 知 , 每 个 数据 点 的 密度 是 在 数据 集 中 与 
该 数据 点 的 距离 小 于 qd, 的 数据 点 个 数 (不 包括 本 身 )。 

当 数 据点 x; 具有 最 大 的 局 部 密度 时 ,其 距离 为 s 
与 x; 距 离 最 大 的 数据 点 与 x; 之 间 的 距离 。 除 此 之 外 ,对 
于 其 他 不 具有 最 大 密度 的 数据 点 , 距离 表示 在 所 有 局 
部 密度 大 于 x 的 数据 点 当中 , 与 x 的 距离 最 小 的 数据 
点 与 蕊 之 间 的 距离 。 其 计算 如 公式 (2) 所 示 呈 。 


Us 


ChinaXiv 合 作 期 刊 


总 第 4 期 2017 年 第 4 期 


Mpg iz2 m 
qi — ed 

maxid,, i=l 
其 中 ， Pa P P Z F Pan o 


(2) 决策 图 
以 局 部 密度 为 横 轴 ,距离 5 为 纵 轴 ， 对 数据 点 
的 局 部 密度 和 距离 刻画 出 相应 的 决策 图 。 图 1 是 由 


28 个 数据 点 包含 的 散 点 图 ， 相 应 的 决策 图 如 图 2 中 
所 示 。 
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图 2 决策 图 内 


22 ”粒子 群 算法 

粒子 群 算法 5 中 ， 种 群 中 的 粒子 都 有 决定 自身 方 
向 和 位 置 的 速度 和 由 适应 度 函 数 决定 的 适应 度 值 ， 每 
个 粒子 通过 向 自身 和 群体 曾 达 到 的 最 优 位 置 靠拢 来 动 
态 调节 自身 位 置 , 通过 迭代 得 到 最 优 和解 。 

假设 粒子 群 的 种 群 规模 为 N, 种 群 中 个 体 维度 为 
D, 每 一 个 粒子 都 有 两 个 属性 : 当前 的 位 置 忆 和 飞行 的 
速度 v, n] EIN M ox = (X Ni Np) > Y= 
(Vii Vias Vip); 其 中 二 1,2,…N。P; 为 粒子 x; TETUER 
解 的 过 程 中 适应 度 值 最 高 的 位 置 ; Ps 为 整个 粒子 群 中 


Data Analysis and Knowledge Discovery 


1.01936Vv1 


A 


) 


0171 


"n 
^ 


V, 


v 
Z 


粒子 所 达到 的 最 优 位 置 , 即 已 是 所 有 已 当中 的 适应 度 
最 大 的 值 。 在 每 一 次 迭代 的 过 程 中 , 每 个 粒子 通过 这 
两 个 极 值 来 调整 自身 的 位 置 和 飞行 速度 。 位 置 和 速度 
的 更 新 如 公式 (3) 和 公式 (4) 所 示 中 。 


Xi = Xi +y; (3) 


w-wxwrexnx(Box)texn(P,-x) (4) 


其 中 , ee JER, 称 之 为 加 速 因 子 ; ri oro 22 [0,1] 


ChinaXiv 合 作 期 刊 


RR 


Ab E 7; 3k, dk T TF-IDF(Term Frequency-Inverse 
Document Frequency) 9"! ft j) tg zx [a] fi A VSM 
(Vector Space Model) "来 表示 文本 ,向量 的 每 一 维 为 
对 应 的 特征 词 在 该 文本 中 的 权重 。 文 本 相似 度 的 度量 
方式 是 依据 余弦 距离 4, 值 越 大 ,两 条 文本 之 间 越 
相似 ， 距 离 越 近 。 

粒子 群 算法 在 迭代 过 程 中 以 适应 度 函 数 为 依据 ， 


中 均匀 分 布 的 随机 数 ; Ww 是 惯性 权重 因子 。 Vmax 是 粒 f 
的 最 大 速率 ，vw e [一 vs ,Vmax ] ， 当 粒子 的 飞行 速度 超 
过 Vmax 时 ， 粒子 的 飞行 速度 即 为 Vmaxo 


3 ”基于 改进 CFSFDP 算法 进行 文本 聚 类 


由 于 基本 的 CFSFDP 算法 存在 上 述 缺 陷 , 本 文 引 
入 了 粒子 群 算法 。 改 进 CFSFDP 算法 的 主要 思想 为 : 
利用 粒子 群 算法 调节 CFSFDP 算法 中 聚 类 中 心 的 选 
取 。 即 通过 粒子 群 算法 得 到 一 个 密度 和 距离 的 阔 值 ， 
在 CFSFDP 算法 中 密度 值 和 距离 均 大 于 这 个 阔 值 的 数 
据点 为 聚 类 中 心 , 根据 选取 出 来 的 聚 类 中 心 进行 聚 类 ， 
根据 聚 类 结果 计算 适应 度 值 , 将 其 作为 粒子 群 算法 更 
新 的 判断 依据 。 将 其 运用 到 文本 取 类 中 , 通过 计算 文 
本 之 间 的 相似 性 , 计算 出 每 条 文本 的 密度 和 局 部 距离 ， 
实现 文本 聚 类 。 算 法 的 流程 如 图 3 Bra. 


、/ 文本 数 | 文本 

据 集 BE 向 量化 
—L— 

RAR 
初始 化 粒 文本 之 间 


APERE | 一 局 部 密度 和 | 人 坟 (1)、 公 式 (2) 二 相似 度 
子 群 种 群 距离 计算 des 


速度 和 位 置 


图 3 算法 流程 
对 于 全 部 的 文本 数据 集 , 采用 目前 最 广泛 的 文本 


用 一 数据 分 析 与 知识 发 现 


适应 度 值 越 高 说 明 该 粒子 的 适应 能 力 越 好 ， 则 会 对 下 
一 代 粒 子 的 进化 产生 影响 ， 从 而 产生 最 优 解 。 本 文采 
用 Rand 系数 号 的 倒数 作为 粒子 群 算法 的 适应 度 函 数 ， 
以 此 来 评价 聚 类 结果 的 好 坏 。 

算法 的 具体 过 程 如 下 : 

DILAR S 进行 预 处 理 ， 计 算 每 条 文本 特征 词 的 权重 
得 到 每 条 文本 的 向 量化 表示 并 且 计算 文本 之 间 的 相似 度 。 

@ 将 四 中 得 到 的 每 个 向 量 作 为 一 个 数据 点 ,根据 公式 
(1) 和 公式 (2) 计 算 每 个 数据 点 的 局 部 密度 和 距离 。 

@ 初 始 化 粒子 群 算法 的 参数 , 主要 包括 种 群 规模 m、 惯 
性 权重 w、 学 习 因 子 cI 和 cs、 最 大 迭代 次 数 1 等 。 随 机 生成 
种 群 的 初始 速度 和 初始 位 置 ， 将 粒子 的 初始 位 置 赋值 给 粒 
子 的 初始 最 优 位 置 P, 根据 各 个 粒子 的 最 优 位 置 找到 全 局 
最 优 位 置 P。, 位置 由 密度 和 距离 确定 。 

@ 计 算 每 个 粒子 对 应 的 聚 类 结果 。 将 每 个 粒子 的 位 置 传 
递 给 CFSFDP 算法 ， 数 据 集 中 局 部 密度 和 距离 均 大 于 此 粒子 
位 置 的 数据 点 记 为 聚 类 中 心 ,， 并 使 用 数据 点 归属 方法 对 非 
聚 类 中 心 点 进行 归属 ， 完 成 聚 类 操作 。 

@@ 对 于 每 个 将 子 对 应 的 聚 类 结果 计算 适应 度 值 ， 更 新 
当前 每 个 粒子 的 最 优 位 置 。 并 且 根 据 每 个 粒子 的 最 优 位 置 更 
新 种 群 全 局 最 优 位 置 , 更 新 每 个 粒子 的 位 置 和 速度 。 

人 @@O 判 断 是 否 满足 收敛 条 件 或 是 否 达 到 最 大 迭代 次 数 ， 
若是 ， 返回 (D); 否则 ， 选 代 次 数 加 1 后 执行 四 。 

@ 根 据 种 群 的 全 局 最 优 位 置 选取 聚 类 中 心 , 通过 数据 
点 的 归属 方法 完成 聚 类 , 得 到 最 终 文 本 集 的 聚 类 结果 ,算法 


结 o 


4 实验 结果 及 分 析 


4.1 数据 集 

实验 中 的 数据 来 自 于 从 高 考 咨询 平台 APP 中 考生 
向 学 校 招生 办 提出 的 问题 ,从 间 题 库 中 随机 选取 7 个 
类 别 : 询问 学 校 代码 和 专业 代码 类 、 军 训 有 关 事 项 、 
高 考 加 分 情况 、 分 数 极 差 情况 、 询 问 招生 办 电话 、 省 
控 线 有 关 信 息 、 是 否 有 退 档 情 况 。 从 每 一 类 中 随机 选 
取 构 造 包 含 7 类 数据 的 数据 集 ， 共 构造 出 data1050、 
data3100 、data5000 三 个 数据 集 , 分 别 包 含 1050, 
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3 100,5 000 条 数据 ,其 中 每 个 数据 集中 包含 的 各 个 类 
数 如 表 1 所 示 。 利 用 “结巴 分 词 ”、 停 用 词 处 理 等 对 数 
据 集 进行 预 处 理 ,并 且 对 不 同 的 数据 集 进行 实验 分 析 
比较 。 本 文通 过 纯度 (Accuracy)、 精 度 (Precision)、 召 
回 率 (RecalD) 和 下 度量 值 (F-Measure)u “114 个 评价 指标 
衡量 聚 类 效果 。 


del 文本 数据 集 


数据 集 代码 ”军训 加 分 极 差 电话 省 控 线 退 档 


datal050 200 100 200 100 150 200 100 
data3100 600 300 600 300 500 500 300 
data5000 1000 400 1000 400 900 900 400 


4.2. ”实验 结果 分 析 

分 别 用 层次 聚 类 算法 (Agglomerative 
Cluster) *? DBSCAN $$15U? 、 基 本 的 CFSFDP 
算法 、 以 及 本 文 算法 对 抽取 的 三 个 数据 集 进 行 聚 类 比 
较 。 其 中 Agglomerative Clustering 算法 因 其 可 以 适用 
于 任意 形状 和 任意 属性 的 数据 集 在 文本 聚 类 方面 也 
有 广泛 的 应 用 。Agglomerative Clustering 算法 采用 在 
三 个 数据 集中 设 定 的 类 别 数 目 实验 效果 最 佳 的 7。 粒 
子 群 算法 中 种 群 数量 设 定 为 S0， 最 大 迭代 次 数 为 30， 
加 速 因 子 为 2, 惯性 权重 因子 为 0.5。DBSCAN 算法 
是 基于 密度 的 聚 类 算法 中 的 一 种 经 典 算 法 ， 具 有 较 
强 的 代表 性 。 针 对 DBSCAN 算法 进行 多 次 实验 , 在 
数据 集 data1050 中 选取 参数 eps=0.8、minPts=30， 数 
据 集 data3100 中 参数 eps-0.8, minPts-70, 数据 集 
data5000 中 选取 参数 eps=0.8、minPts=110 效果 相对 
最 佳 的 实验 结果 。 层 次 聚 类 算法 、DBSCAN 算法 、 
基本 的 CFSFDP 算法 、 本 文 算法 总 体 F 值 比较 如 图 4 
所 示 。 


m Agglomerative 


a DBSCAN 
s CFSFDP 
日 本 文 算法 
datal050 data3100 data5000 
文本 对 象 的 数目 


图 4 聚 类 效果 的 比较 
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可 见 本 文 算法 相对 于 其 他 三 个 算法 在 不 同 的 数据 
集中 聚 类 效果 都 较 好 。 实 验 结果 如 表 2 Br, 可 以 看 
出 本 文 算法 在 高 考 问 询 文本 库 中 相 比 其 他 三 个 算法 都 
有 和 较 好 的 效果 。 其 中 基本 的 CFSFDP 算法 由 于 噪声 点 
的 影响 造成 同一 个 类 中 两 个 及 以 上 的 数据 点 成 为 数据 
中 心 导 致 聚 类 算法 的 不 准确 性 。 DBSCAN 算法 由 于 对 
参数 eps( 被 认为 是 同一 个 类 的 文本 之 间 的 最 大 距离 ) 
和 minPts( 一 条 文本 与 其 他 文本 的 距离 小 于 eps 的 个 数 
大 于 等 于 minPts 视 为 聚 类 中 心 ) 特 别 敏感 ， 在 类 中 的 
数据 发 布 密度 不 均匀 的 时 候 ，eps 较 小 时 ， 密 度 小 的 类 
会 被 划分 成 多 个 相似 的 类 ，eps 较 大 时 , 会 使 得 距离 较 
近 且 密度 较 大 的 类 被 合并 成 一 个 较 大 的 类 ， 导 致 聚 类 
效果 不 理想 。 层 次 算法 比 DBSCAN 算法 具有 更 好 的 效 
JR, 但 是 Agglomerative Clustering 算法 的 计算 复杂 度 
大 高 。 

表 2 4 种 算法 的 Accuracy、Precision Recall, 
F-Measure 值 比 较 
算法 数据 集 Accuracy Precision Recall F-Measure 
datal050 0.7305 0.7743 0.7969 0.7854 


Agglomerative data3100 0.7077 0.6976 0.7811 0.7370 
data5000 0.6808 0.6598 0.6627 0.6612 


datal050 0.6486 | 0.6795 0.7332 0.7052 


DBSCAN data3100 0.6797 0.6761 0.7880 0.7278 
data5000 0.6006 0.6270 0.6500 0.6643 
datal050 0.8171 0.8050 0.8090 0.8070 
CFSFDP data3100 0.750 0.7375 0.6617 0.6975 
data5000 0.7425 0.7438 0.6189 0.6756 
datal050 0.8333 0.7171 0.9098 0.8609 
本 文 算 法 data3100 0.7574 0.7421 0.7676 0.7546 
data5000 0.7712 0.7340 0.7450 0.7395 
5 结 语 


本 文 针对 CFSFDP 算法 聚 类 中 心 选 取 的 武断 性 的 
问题 , 提出 一 种 基于 粒子 群 算法 的 CFSFDP 算法 。 引 
和 人 粒子 群 算法 找到 一 对 阔 值 ,将 大 于 这 对 净值 的 数据 
点 作为 聚 类 中 心 , 减少 离散 点 对 聚 类 结果 的 影响 ， 提 
高 了 取 类 准确 性 。 将 此 算法 应 用 在 从 某 高 考 咨 询 平台 
问题 库 中 随机 提取 的 问题 中 , 验证 了 本 文 算法 的 有 效 
性 和 准确 性 ， 能够 帮助 考生 更 准确 高 效 地 获得 答案 并 
且 减 轻 了 被 咨询 方 的 咨询 量 ,大 大 节省 了 双方 的 时 
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间 。 
的 特性 ,在 计算 高 
要 的 粒子 数 较 多 , 导致 计 算 复 杂 度 通 


但 是 该 算法 也 存在 局 限 性 , 由 于 粒子 群 本 身 算法 
纬度 的 问题 时 , 粒子 群 优化 算法 需 
常 很 高 。 
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Application of Text Clustering Method Based on Improved CFSFDP 
Algorithm 


Zhan Chunxia Wang Rongbo Huang Xiaoxi Chen Zhiqun 
(School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China) 


Abstract: [Objective] This paper aims to improve the un-satisfactory performance of CFSFDP (clustering by fast 
search and find of density peaks) algorithm with the help of based on particle swarm optimization. [Methods] First, we 
determined the cluster centers by searching optimal local density and distance thresholds to increase the accuracy of 
results. These clustering centers have relatively high local density and distance, which reduced the influence of discrete 
points. Then, we examined the proposed method on a randomly selected dataset from the question-answer database of a 
college entrance exam consulting platform. [Results] The modified CFSFDP algorithm had better performance than the 
original one. [Limitations] We did not include the semantic relations to process the texts. [Conclusions] The proposed 
algorithm could achieve good clustering results, and improve the efficiency of the consulting personnel . 


Keywords: CFSDFP Cluster Centers Particle Swarm Optimization Algorithm 
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